研究指出,SWE-bench Verified基準測試可能高估AI編程能力。該測試中被判“通過”的AI代碼方案,約一半在實際項目審覈中會被拒絕,顯示自動化評測與真實工程質量存在明顯差距。這一發現對AI輔助軟件工程評估標準提出了重要質疑。
MiniMax 發佈 M2.5 模型,這是其 M2 系列在 108 天內的第三次升級。模型開源權重同步上線魔搭 ModelScope,在編程、搜索、辦公等多場景表現領先,實現了能力、效率與成本的三重突破。該版本提供從零代碼使用到私有化部署的全流程方案,並附有工具調用與推理參數調優的實戰指南,旨在推動低成本 Agent 時代的到來。M2.5 在多項評測中成績突出,例如在 SWE-Bench Verified 中表現亮眼。
智譜AI開源模型GLM-4.7-Flash發佈兩週,在Hugging Face下載量突破100萬。這款30B-A3B混合思考模型性能強勁,在SWE-bench Verified和τ²-Bench等測試中,綜合表現超越gpt-oss-20b及Qwen3-30B-A3B-Thinking-2507,在同尺寸模型中領先。
九坤投資推出AI大模型IQuest-Coder-V1系列,具備強大代碼生成與理解能力。該系列提供7B、14B和40B三種參數版本,其中40B版本在SWE-Bench Verified榜單上表現突出,以81.4%的成績超越Claude Opus-4.5和GPT-5.2等知名模型,引發科技界關注。
AI模型軟件工程能力評估工具
Anthropic
$21
輸入tokens/百萬
$105
輸出tokens/百萬
200
上下文長度
Openai
$8.75
$70
400
$525
Chatglm
$2
$8
128
Xai
-
Kwaipilot
KAT-Dev-72B-Exp是一款用於軟件工程任務的720億參數開源大語言模型,在SWE-Bench Verified基準測試中達到74.6%的準確率,是KAT-Coder模型的實驗性強化學習版本。
moonshotai
Kimi-Dev-72B 是一款用於軟件工程任務的開源編碼大語言模型,在 SWE-bench Verified 上取得了開源模型中的最優成績。